本文介绍了一个数据集,用于培训和评估方法,以估算由标准RGB摄像机捕获的任务演示中手持工具的6D姿势。尽管6D姿势估计方法取得了重大进展,但它们的性能通常受到严重遮挡的对象的限制,这在模仿学习中是一个常见的情况,而操纵手通常会部分遮住对象。当前,缺乏数据集可以使这些条件的稳健6D姿势估计方法开发。为了克服这个问题,我们收集了一个新的数据集(IMITROB),该数据集针对模仿学习和其他人类持有工具并执行任务的其他应用中的6D姿势估计。该数据集包含三个不同工具和六个操纵任务的图像序列,这些任务具有两个相机观点,四个人类受试者和左/右手。每个图像都伴随着由HTC Vive运动跟踪设备获得的6D对象姿势的准确地面真相测量。通过训练和评估各种设置中的最新6D对象估计方法(DOPE)来证明数据集的使用。数据集和代码可在http://imitrob.ciirc.cvut.cz/imitrobdataset.php上公开获得。
translated by 谷歌翻译
在过去的几年中,多模式变异自动编码器(VAE)一直是一项激烈研究的主题,因为它们可以将多种模态整合到联合表示中,因此可以作为数据分类和生成的有前途的工具。到目前为止,已经提出了几种多模式VAE学习的方法,但是它们的比较和评估相当不一致。原因之一是模型在实现级别上有所不同,另一个问题是,在这些情况下常用的数据集最初不是为评估多模式生成模型的设计。本文解决了这两个问题。首先,我们提出了一个用于系统多模式VAE训练和比较的工具包。其次,我们提出了一个合成的双峰数据集,旨在全面评估联合发电和交叉生成能力。我们通过比较最新模型来证明数据集的实用性。
translated by 谷歌翻译
We deal with a challenging scheduling problem on parallel machines with sequence-dependent setup times and release dates from a real-world application of semiconductor work-shop production. There, jobs can only be processed by dedicated machines, thus few machines can determine the makespan almost regardless of how jobs are scheduled on the remaining ones. This causes problems when machines fail and jobs need to be rescheduled. Instead of optimising only the makespan, we put the individual machine spans in non-ascending order and lexicographically minimise the resulting tuples. This achieves that all machines complete as early as possible and increases the robustness of the schedule. We study the application of Answer-Set Programming (ASP) to solve this problem. While ASP eases modelling, the combination of timing constraints and the considered objective function challenges current solving technology. The former issue is addressed by using an extension of ASP by difference logic. For the latter, we devise different algorithms that use multi-shot solving. To tackle industrial-sized instances, we study different approximations and heuristics. Our experimental results show that ASP is indeed a promising KRR paradigm for this problem and is competitive with state-of-the-art CP and MIP solvers. Under consideration in Theory and Practice of Logic Programming (TPLP).
translated by 谷歌翻译
人工智能(AI)对计算的巨大需求正在推动对AI的硬件和软件系统的无与伦比的投资。这导致了专用硬件设备数量的爆炸,现在由主要的云供应商提供。通过通过基于张量的界面隐藏低级复杂性,张量计算运行时间(TCR)(例如Pytorch)允许数据科学家有效利用新硬件提供的令人兴奋的功能。在本文中,我们探讨了数据库管理系统如何在AI空间中乘坐创新浪潮。我们设计,构建和评估张量查询处理器(TQP):TQP将SQL查询转换为张量程序,并在TCR上执行它们。 TQP能够通过在张量例程中实现与关系运算符的新颖算法来运行完整的TPC-H基准。同时,TQP可以支持各种硬件,而仅需要通常的开发工作。实验表明,与专用CPU和仅GPU的系统相比,TQP可以将查询执行时间提高到10美元$ \ times $。最后,TQP可以加速查询ML预测和SQL端到端,并在CPU基线上输送高达9 $ \ times $速度。
translated by 谷歌翻译
本研究提出了一种使用深入学习工作流程来量化建筑环境中的损坏的新方法来量化。由于自动履带,从谷歌地球获得了全世界50个震中的自然灾害前后的空中图像,从谷歌地球获得了一台10,000个空中图像数据库,每像素的空间分辨率为2米。该研究利用算法SEG-Net在两个实例(现有和后自然灾害)中的卫星图像中的建筑环境的语义分割。对于图像分割,SEG-Net是最受欢迎和最通用的CNN架构之一。 SEG-NET算法在分割中达到了92%的精度。分割后,我们将两种情况之间的差异与变化百分比进行了比较。这种变化系数代表了数控的损坏,城市环境必须量化建筑环境中的整体损坏。这样的指数可以让政府估计受影响家庭的数量,也许是住房损害的程度。
translated by 谷歌翻译
最近的深层摄影的出现使操纵和生成的内容成为机器学习研究的最前沿。自动检测深击已经看到了许多新的机器学习技术,但是,人类的检测功能的探索功能要少得多。在本文中,我们介绍了比较人类和机器检测用于模仿某人声音的音频深击的能力的结果。为此,我们使用基于Web的应用程序框架作为游戏。要求参与者区分真实和假音频样本。在我们的实验中,有378位唯一用户与最先进的AI DeepFake检测算法竞争,以12540的比赛总数。我们发现,人类和深层检测算法具有相似的优势和劣势,都在努力检测某些类型的攻击。这与许多应用领域(例如对象检测或面部识别)中AI的超人性能形成对比。关于人类的成功因素,我们发现IT专业人员没有非专业人士的优势,但母语人士比非本地人的人具有优势。此外,我们发现年长的参与者往往比年轻的参与者更容易受到影响。在为人类设计未来的网络安全培训以及开发更好的检测算法时,这些见解可能会有所帮助。
translated by 谷歌翻译